Scikit-Learn 패키지는 머신 러닝 교육 및 실무를 위한 파이썬 패키지로 다음과 같은 구성 요소들을 갖추고 있다.
자세한 내용은 다음 웹사이트를 참조한다.
scikit-learn 패키지의 장점은 다양한 머신 러닝 모형 즉, 알고리즘을 하나의 패키지에서 모두 제공하고 있다는 점이다. 다음은 scikit-learn 패키지에서 제공하는 머신 러닝 모형의 목록이다. 이 목록은 대표적인 것들만을 나열한 것이며 지속적으로 모형들이 추가되고 있다.
Generalized Linear Models
scikit-learn 은 서브 패키지 단위로 별도의 기능을 제공하고 있다. 대표적인 서브 패키지와 기능을 나열하면 다음과 같다.
sklearn.datasets
: 샘플 데이터 세트 제공sklearn.preprocessing
: imputation, encoding 등 단순 전처리sklearn.feature_extraction
: Feature Extractionsklearn.base
: Base classes and utility functionssklearn.pipeline
: Pipelinesklearn.linear_model
: Generalized Linear Modelssklearn.naive_bayes
: Naive Bayessklearn.discriminant_analysis
: Discriminant Analysissklearn.neighbors
: Nearest Neighborssklearn.mixture
: Gaussian Mixture Modelssklearn.svm
: Support Vector Machinessklearn.tree
: Decision Treessklearn.ensemble
: Ensemble Methodssklearn.cluster
: Clusteringsklearn.metrics
: Metricssklearn.cross_validation
: Cross Validationsklearn.grid_search
: Grid Searchscikit-learn을 사용하기 위해서는 원하는 기능을 가지고 있는 클래스 객체를 생성해야 한다. scikit-learn은 다양한 클래스를 제공하지만 대부분의 클래스는 다음과 같이 세가지 그룹으로 나눌수 있다.
fit()
: 모형 계수 추정, 트레이닝(training)transform()
: 자료 처리fit_transform()
: 모형 계수 추정 및 자료 처리 동시 수행fit()
: 모형 계수 추정, 트레이닝(training)predict()
: 주어진 x값에 대해 y 예측score()
: 성과 분석